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料 的 重要 设备 。 在 加 速 器 束 流 轨 道 校 正 过 程 中 ， 需 要 束 流 轨 道 参 数 辅助 计算 。 神 经 网 络 目 
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缘 智 能 计算 节点 的 直线 加 速 器 束 流 轨道 参数 预测 技术 。 该 方法 通过 BPNN 对 过 往 数据 学 习 ， 
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E 束 流 轨 道 提 供 数 据 基 础 ， 需 要 设计 一 丰 
的 束 流 位 置 预测 系统 ”。 
技术 的 轨道 数据 预测 方 
自 适 应 补偿 在 线束 流 轨 道 校正 系统 提供 束 流 位 
接 读 取 BPM 数据 和 校正 磁铁 强度 值 构建 深度 学 习 模 型 ， 利 用 FPGA(Field 
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Programmable Gate Array) 的 并 行 计 算 能 力 和 硬件 优化 技术 加 速 边 缘 节点 ， 实 现 高 速 、 低 功 
耗 、 低 成 本 的 束 流 轨道 数据 预测 ”。 该 方法 结合 了 神经 网 络 、 边 缘 智 能 计算 的 优势 ， 是 一 
种 有 效 的 束 流 轨道 数据 预测 方法 。 
1. 相关 工作 

1.1 加 速 器 束 流 轨道 参数 预测 现状 

目前 国内 外 有 多 个 机 构 和 团队 从 事 粒 子 加 速 器 束 流 轨道 参数 预测 方面 的 研究 工作 ， 如 
中 国 科 学 院 近代 物理 研究 所 、 欧 洲 核子 研究 中 心 CERN 等 。 粒 子 加 速 器 的 性 能 和 效率 取决 
于 柬 流 在 加 速 过 程 中 的 动力 学 行为 ， 而 束 流动 力学 又 受到 多 种 因素 的 影响 ， 如 空间 电荷 效 
应 、 阻 尼 效 应 、 集 体 效 应 、 非 线性 效应 等 。 已 经 提出 的 预测 束 流 轨道 参数 的 方法 有 多 种 ， 
如 理论 模型 法 、 数 值 模拟 法 、 机 器 学 习 法 等 。 
理论 模型 法 最 早 可 以 追溯 到 牛顿 的 经 典 力学 和 麦克 斯 书 的 电磁 理论 ， 它 们 都 是 用 数学 
方程 来 描述 物理 现象 的 典范 。 其 优点 是 既 能 反映 内 部 规律 ， 也 能 分 析 两 个 因素 的 相关 关系 ， 
精度 相对 较 高 ， 适 用 于 短 、 中 、 长 期 的 预测 。 缺 点 是 方程 的 建立 需要 做 出 一 些 假 设 条 件 ， 
不 同 的 假设 会 得 到 不 同 的 方程 ， 而 且 方 程 的 解 比较 难得 到 。 

数值 模拟 法 是 随 着 计算 机 技术 的 发 展 而 兴起 的 ， 它 可 以 对 复杂 和 非 线性 的 问题 进行 数 
值 求解 。 其 优点 是 可 以 处 理 复杂 和 非 线 性 的 问题 ， 可 以 考虑 多 种 影响 因素 ， 精 度 较 高 。 缺 
点 是 需要 大 量 的 计算 资源 和 时 间 ， 对 计算 机 性 能 要 求 较 高 。 

机 器 学 习 法 是 近年 来 受到 广泛 关注 和 应 用 的 一 种 人 工 智能 技术 ， 它 可 以 从 数据 中 学 习 
规律 和 知识 ， 并 进行 预测 和 决策 。 这 种 方法 是 利用 人 工 智能 技术 对 历史 数据 进行 分 析 和 学 
习 ， 建 立 预测 模型 *。 优 点 是 不 需要 建立 数学 模型 ， 可 以 处 理 非 线性 和 高 维度 的 问题 ， 具 
有 强大 的 拟 合 能 力 和 自 适应 能 力 。 缺 点 是 不 能 反映 事物 的 内 在 联系 和 原理 ， 需 要 大 量 且 质 
量 好 的 数据 进行 训练 和 验证 。 
2. 2 深度 学 习 加 速 技术 现状 

深度 学 习 在 多 个 领域 上 表现 出 优 于 传统 算法 的 效果 ， 但 是 其 参数 体 量 大 ， 若 想 将 其 应 
到 边缘 设备 中 去 ， 就 要 对 深度 学 习 模型 进行 压缩 与 加 速 ”。 

神经 网 络 剪 枝 可 以 在 保持 精度 的 同时 显著 压缩 模型 ， 如 Song Han 等 人 实现 了 35-49 fi 
的 压缩 率 ， 其 中 剪 枝 贡献 了 10 倍 以 上 ”。 深 鉴 科 技 将 其 应 用 于 FPGA 上 的 语音 识别 ”。Fuj 
让 等 人 采用 神经 元 修剪 ， 将 VGG-11 网 络 层 神经 元 减少 89.3%， 准 确 性 仍 达 99%。 权 重 参数 
减少 后 ，FPGA 上 的 片上 存储 器 可 以 高 速 访问 权重 存储 器 ”。 
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70 倍 ， 但 精度 损失 大 "”。Kuan Wang 等 人 提出 
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了 硬件 感知 自动 量化 ， 利 


等 人 总 结 有 数据 量化 、 快 速 和 


型 量化 可 以 将 全 精度 数 映射 到 有 限 整 数 空间 ， 降 低 计算 复杂 度 。Nagel 等 人 系统 介绍 


数 ， 降 低 数据 存储 空间 并 且 加 快 推 理 速 度 。 
2.3 BP 神经 网 络 介绍 


BPNN(Back propagation neural network) 是 一 种 基于 误差 反问 传播 算法 训练 的 多 层 前 馈 
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强化 学 习 确 定量 化 策略 ， 有 效 降低 延迟 和 能 耗 "”。Riadh Ayachi 
E 阵 计算 、 频 率 优化 、 优 化 片 内 存储 器 设计 、 数 所 


环 展开 等 优化 方法 ”。 本 文中 使 用 其 中 的 数据 量化 算法 ， 将 神经 网 络 量化 为 低位 宽 的 定点 
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它 能 够 通过 调整 网 络 的 权 值 和 闵 值 ， 最 小 化 实际 输出 与 预计 输出 之 间 的 误差 。 其 
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结构 如 图 
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ReLU 函数 在 训练 中 收敛 较 快 ， 并 且 具 有 更 小 的 计算 复杂 度 ， 所 以 在 边缘 节点 部 署 


个 更 简单 易 


1 BPNN 结构 
素 ， 使 神经 网 络 可 以 拟 合 数据 。 常 
数 ，ReLU 函数 以 及 Tanh 函数 。Sigmoid 函数 和 双 曲 正切 非 线 性 函数 需要 较 长 的 训练 时 间 ， 


的 激活 函数 ， 如 下 : 


f(x)=max(x,0) 


eLU 更 易 实现 ， 在 HLS 中 ， 可 以 进行 ReLU 函数 优化 。 


3. 系统 架构 及 方法 设计 
我 们 计划 未 来 建立 一 套 基 于 边缘 智能 计算 的 粒子 加 速 器 束 流 校正 


4 层 构成 ， 每 一 层 包含 多 个 神经 元 ， 计 和 


于 函数 拟 合 、 模 式 识别 和 数据 压缩 等 
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前 期 的 研究 ， 本 文 基于 边缘 智能 节点 实现 了 MEBT 束 流 轨道 参数 的 预测 系统 ， 图 2 为 BPM 
以 及 磁铁 位 置 关 系 图 。 边 缘 智能 节点 是 指 在 靠近 用 户 或 数据 源 的 网 络 边缘 端的 具有 计算 、 
存储 、 网 络 等 资源 的 设备 ， 其 具有 高 效 性 、 安 全 性 、 可 移植 性 等 优势 。 为 了 提高 束 流 轨道 
参数 预测 的 实时 性 和 精度 ， 使 用 边缘 智能 节点 来 加 速 执行 计算 和 分 析 ” 。 
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图 2 BPM 以 及 磁铁 位 置 关系 图 

FPGA 是 一 种 可 编程 逻辑 器 件 ， 其 可 重 构 的 逻辑 单元 可 以 实现 高 度 并 行 计 算 ， 提 升 边 
缘 计算 节点 的 性 能 和 吞吐 量 ， 并 且 其 支持 多 种 数据 类 型 和 算法 ， 满 足 边缘 计算 的 多 样 化 需 
求 。 此 外 ，FPGA 能 够 利用 其 低 功 耗 和 低 延 迟 的 特性 运行 算法 ， 满 足 边 缘 计算 对 时 效 性 和 

能 效 性 的 要 求 。 

BP 神经 网 络 作 为 一 种 多 层 前 馈 神经 网 络 ， 能 够 通过 反 向 传播 算法 进行 自 适应 学 习 ， 实 
现 复杂 非 线性 函数 的 逼近 。 在 本 文中 ， 我 们 利用 BP 神经 网 络 对 磁铁 强度 与 BPM 位 置 之 间 
的 关系 进行 函数 拟 合 ， 从 而 预测 不 同 磁铁 强度 下 的 BPM 位 置 。BPM 位 置 是 指 粒子 束 在 加 
速 器 中 的 轨道 偏 移 量 ， 它 反映 了 粒子 束 的 质量 和 稳定 性 。 为 了 提高 数据 预测 效率 ， 我 们 将 
BPNN 作为 边缘 节点 算法 部 署 到 FPGA 开发 平台 上 。 而 FPGA 去 实现 神经 网 络 最 关键 的 地 
方 就 是 设 定好 一 种 架构 ， 包 括 数据 的 传输 、 临 时 存储 、 结 果 读 取 等 。 神 经 网 络 的 部 署 不 只 
要 实现 权重 和 激活 值 的 矩阵 运算 以 及 激活 函数 的 输出 ， 还 要 对 FPGA 架构 设计 进行 有 效 优 
化 ， 提 高 实际 应 用 的 实时 性 。 所 以 设计 核心 是 神经 网 络 加速 器 设计 和 硬件 架构 设计 两 方面 。 


训练 数据 神经 网 络 训练 平台 ”边缘 计算 加 速 节点 
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图 3 系统 架构 图 


4、 具 体 算法 设计 
4.1 参数 预测 算法 设计 

BPNN 作为 算法 部 署 到 边缘 计算 节点 ， 网 络 体 量 必 须要 小 ， 并 且 要 防止 输出 过 拟 合 。 
因此 设计 使 用 12 个 神经 元 输入 10 个 神经 元 输出 的 单 隐 层 BPNN， 其 中 隐藏 层 包含 20 个 神 
经 元 。12 个 输入 神经 元 包括 5 个 磁铁 的 参数 值 和 第 一 个 BPM 的 坐标 值 ，10 个 神经 元 输出 
包括 5 BPM 的 坐标 参数 值 。 实 验 中 以 这 些 已 知 量 为 输入 ， 预 测 后 面 BPM 的 位 置 坐标 ， 
这 些 数 据 坐标 可 以 作为 映射 关系 输出 到 自动 化 的 束 流 校正 系统 ， 激 活 层 采用 ReLU 函数 ，B 
PNN 网 络 结构 设计 如 图 4 所 示 。 
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图 4 BPNN 结构 设计 

设计 的 BPNN 包含 前 向 传播 和 反 向 传播 部 分 ， 神 经 网 络 训练 首先 根据 输入 进行 正 向 传 
播 即 神经 元 输入 乘 权 重 累 加 偏 置 ， 从 输入 层 到 隐藏 层 需要 进行 240 次 累加 乘法 ， 从 隐藏 层 
到 输出 层 需 要 进行 200 次 累加 乘法 。 反 向 传播 使 用 梯度 下 降 法 ， 根 据 前 向 传播 的 各 层 输出 
结果 计算 loss 函数 ， 然 后 使 用 梯度 下 降 进 行 反 向 传播 调 优 ， 进 而 降低 loss 使 得 数据 拟 合 。 

实验 的 数据 集 是 基于 Trace Win 束 流动 力学 软件 产生 的 模拟 数据 ， 经 过 统计 学 处 理 之 后 
的 数据 作为 训练 集 以 及 验证 集 ， 其 确定 性 因素 是 MEBT 的 lattice， 如 Q 铁 ， 非 确定 性 因素 
是 校正 磁铁 的 强度 ， 其 中 影响 输出 结果 但 是 不 可 测 的 因素 是 真实 加 速 器 和 模拟 加 速 器 的 误 
差 。 其 BPM 数据 集散 点 图 如 图 5 所 示 ， 其 中 每 个 子 图 的 横 纵 坐标 都 分 别 代表 其 BPM 的 坐 
标 轴 数 据 。Magnet 做 铁 电流 强度 参数 数据 散 点 图 如 图 6 所 示 ， 其 中 X,Y 轴 分 别 代表 其 2 个 


方向 的 磁铁 电流 强度 。 


图 5 BPM 训练 数据 散 点 图 
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图 6 Magnet 磁铁 强度 参数 数据 散 点 图 
训练 基于 Pytorch 平台， 使 用 随机 分 配 的 5000 组 训练 集 进行 3000 轮训 练 ，BatchSize 设 
置 为 64， 对 测试 集 和 验证 集 进行 测试 ， 验 证 集 误差 在 0.5% 左右 。 神 经 网 络 训练 和 测试 的 
损失 值 如 图 7 所 示 ， 其 loss 基本 收敛 在 XX 轴 附 近 。 
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图 7 训练 和 测试 损失 值 
4.2 基于 FPGA 的 并 行 加 速算 法 设计 、 实 现 
4.2.1 硬件 系统 架构 设计 


本 文 介绍 了 一 种 基于 FPGA 的 神经 网 络 加 速 器 设计 ， 利 用 ZYNQ SOC 平台 上 PS (Proc 


essing System) 和 PL (Programmable Logic) 之 间 的 高 效 数据 交互 能 力 。 神 经 网 络 加 速 器 是 


一 个 自 定义 的 IP. CIntellectual Property) 核 ， 它 可 以 加 速 全 连接 层 的 前 向 推 


E 理 计算 ， 并 输出 


预测 结果 。PS 端 通过 AXLlite 接口 向 AXI DMA 发 送 控制 指令 。PL 端 通过 AXI SmartConne 


ct 调度 数据 流 进行 交互 ， 使 用 AXI interconnect 进行 控制 流 的 调度 ，DMA 


的 MM2S 和 S2M 


M 接口 分 别 接收 数据 和 发 送 处 理 好 的 数据 ， 完 成 数据 流 以 及 控制 流 的 流通 ， 形 成 闭环 。 图 


8 是 本 设计 的 硬件 系统 框图 。 
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8 硬件 系统 框图 


4.2.2 定点 数量 化 算法 


的 鲁 棒 性 使 量化 处 到 


量化 是 指 用 较 低 位 宽 表 示 32 位 浮 点 型 参数 ， 减 少 推理 


时 间 和 参数 存储 空间 。 神 经 网 络 
LE 参 数 后 仍 能 保持 精度 。 和 矩阵 的 浮 点 数 乘 累 加 运算 可 以 通过 量化 数据 的 


乘法 加 法 和 移 位 操作 来 代替 ,显著 降低 浮 点 数 运 算 对 DSP (Digital Signal Processing) 资源 的 


消耗 。 量 化 主要 分 为 训练 后 量化 (Post-Training Quantization) 和 量化 感知 训练 (Quantization Aw 


are Training)。 训 练 后 量化 不 需要 和 


新 训练 或 标记 数据 ， 是 一 种 轻 量 级 的 量化 方法 。 在 大 多 


数 情况 下 ， 训 练 后 量化 足以 实现 接近 浮 点 精度 的 S 位 量化 。 量 化 感知 训练 需要 对 标记 训练 


数据 进行 微调 和 访问 ， 但 能 够 实现 较 低 精度 损失 的 低 比特 上 


gh. 由 于 设计 部 署 在 FPGA ^F 


台 上 ， 定 点 数量 化 方法 更 适合 部 署 ，FPGA 对 于 定点 数 运算 有 着 更 高 效 的 加 速效 果 。 
定点 数量 化 就 是 将 数字 表示 为 整数 和 小 数 的 组 合 ， 首 先 确 定 定点 数 表示 的 范围 和 精度 ， 
定点 数 的 表示 范围 由 位 宽 决 定 ， 精 度 则 由 小 数 点 位 置 决定 。 选 定 合 适 的 位 宽 和 人 小数点 位 置 ， 


可 以 在 同时 满足 精度 和 范 


围 的 前 提 下 尽 可 能 地 减 小 所 需 资源 。 根 据 所 选 定点 数 的 位 宽 和 人 小 


数 点 位 置 ， 定 义 所 需 的 数据 类 型 和 数据 宽度 。 最 后 根据 所 选 定 点 数 的 位 宽 和 小 数 点 位 置 ， 
将 浮 点 数 转 换 为 对 应 的 定点 数 表示 。 


在 数字 信号 处 到 


和 机 器 学 习 等 领域 中 ， 定 点 量化 算法 被 广泛 应 月 


日 于 将 高 精度 参数 转换 


为 低 精度 参数 ， 以 便于 在 嵌入 式 系统 中 进行 高 速 计算 时 ， 解 决 高 精度 计算 时 精度 不 足 的 问 
题 。 定 点 量化 算法 可 以 通过 不 同 的 取 整 函数 来 将 浮 点 数 转换 为 定点 数 。 向 下 取 整 会 导致 精 
度 损失 ， 而 向 上 取 整 则 可 能 会 导致 溢出 。 因 此 ， 定 点 量化 算法 需要 根据 应 用 场景 和 需求 选 
择 合适 的 取 整 方式 和 量化 位 数 。 


4. 2. 3 神经 网 络 加 速算 法 


BPNN 作为 全 


如 图 


连接 神经 网 络 ， 其 计算 本 质 就 是 权重 
乘法 的 优化 是 设计 的 核心 。 


和 矩阵 乘法 累加 全 


ij 置 ， 所 以 对 于 矩阵 


本 文采 用 流水 线 和 循环 展开 的 优化 方法 ， 


7 所 示 ， 可 以 看 到 其 中 主要 有 5 个 循环 ， 有 两 个 矩阵 乘 计算 并 且 昧 力 


应 该 是 A 的 每 一 行 的 元 素 乘 B 的 每 一 列 的 相应 元 素 的 侣 加 。 外 


循环 是 进行 A 的 第 i 行 元 素 与 B 的 第 7 列 元 素 的 乘积 累加 。 


可 以 计算 出 


第 i 行 的 所 有 元 素 ， 最 外 层 的 循环 是 对 行 的 遍历 。 和 矩阵 所 


n-l 
Cj = be QOsijsn-1l 
k=0 


E 阵 乘法 的 运 入 


其 外 层 是 对 


AREE 


rH 
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D 


乘法 算法 伪 代 码 
E 阵 乘法 


逻辑 


最 内 层 的 
JEREB 的 列 遍历 ， 
量 乘法 被 定义 成 : 


1: for i = 0 to n — 1 do 

2: for j = 0 ton — 1 do 

3: output1 = bias1[i] + weight [i][j] * in[j]; 

4: end for 

5: end for 

5: Relu(output1); 

6: for i = 0 to n — 1 do 

rs for j = 0 to n — 1 do 

8: output = bias2[i] + weight2[i][j] * output1[j]; 

9: end for 

10: end for 

图 9 矩阵 乘法 算法 伪 代 码 
和 矩阵 运算 是 计算 资源 的 主要 消耗 者 , 对 于 设计 的 BPNN 来 说 ， 主 要 加 速 部 署 的 就 是 前 向 

传播 部 分 ， 前 向 传播 就 是 由 累加 乘 组 成 的 ， 输 入 和 输出 的 数据 和 设计 的 神经 网 络 相 同 。 根 
据 前 面 BPNN 的 结构 设计 来 看 ， 硬 件 加 速 器 应 该 包含 从 输入 层 到 隐藏 层 的 240 次 累加 乘 和 从 
隐藏 层 到 输出 层 的 200 次 累加 乘 。 为 了 提高 循环 并 行 性 能 ， 我 们 使 用 循环 展开 和 流水 线 化 
技术 。 循 环 展 开 时 将 循环 体 复制 多 份 ， 并 在 硬件 上 同时 执行 一 组 和 迭代。 其 参数 指定 了 每 次 
在 硬件 上 并 行 执 行 的 数目 。 循 环 展 开 不 仅 可 以 解决 利用 率 低下 的 问题 ， 还 可 以 帮助 优化 数 
据 路 径 和 片上 存储 器 设计 。FPGA 流水 线 化 是 指 将 一 个 复杂 的 计算 任务 分 解 为 若干 个 子 任务 ， 
并 按照 顺序 组 装 成 一 个 流水 线 处 理 的 过 程 。FPGA 部 署 神经 网 络 的 流水 线 化 是 利用 FPGA 上 
的 可 重 构 资源 进行 了 设计 和 优化 ， 使 用 DSP 进行 矩阵 运算 ,使 用 LUT 进行 逻辑 运算 和 查找 


表 操 作 。 


整体 硬件 加 速 器 内 部 架构 如 图 


10 所 示 。 
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图 10 硬件 加 速 器 内 部 架构 


5、 测 试 及 讨论 
本 设计 应 用 了 BPNN 神经 网 络 技术 对 于 过 往 的 实验 数据 进行 拟 合 ， 得 到 期 望 的 神经 网 
络 模型 ， 使 用 定点 量化 技术 对 模型 参数 量化 ， 根 据 便 件 整体 架构 以 及 其 硬件 加 速 器 的 设计 ， 
将 FPGA 作为 边缘 加 速 节 点 部 署 BPNN 进行 加 速 。 测 试 包括 验证 边缘 加 速 节点 的 硬件 加 速 
效果 、 量 化 性 能 、 硬 件 性 能 指标 以 及 硬件 系统 架构 的 可 行 性 。 
5. 1 软 硬 件 实验 环境 

本 文 测试 部 署 边缘 计算 节点 的 神经 网 络 模型 为 BPNN， 使 用 Pytorch 训练 平台 对 神经 网 
络 进行 7000 轮训 练 ， 将 得 到 的 神经 网 络 权 重 以 及 偏 置 文件 保存 下 来 作为 后 续 测试 的 材料 。 


使 用 的 实验 开发 板 是 ZYBO-Z7, 主 频 为 120MHz; CPU 对 照 组 采用 12 vCPU Intel(R) Xeon(R) 


Platinum 8255C CPU @ 2.50GHz 处 理 器 ， 主 频 2.5GHz， 处 理 器 数量 为 24 核 48 线程 ，Linu 


x HERA; GPU 对 照 组 采用 Nvidia GTX 3090 芯片 ， 拥 有 10496 个 CUDA 核心 ， 核 心 频 
率 1400MHz， 配 有 24GB 的 显存 ，Linux 操作 系统 ， 在 ZYBO-Z7 开发 板 上 对 本 设计 进行 了 


实验 ， 硬 件 加 速 器 的 资源 利用 率 如 表 2 所 示 。 
表 2 硬件 加 速 器 的 资源 利用 率 


Ky FF LUT DSP48E BRAM_18K 
资源 总 数 35200 17600 80 120 
使 用 数 8039 15808 64 0 
使 用 率 22% 89% 80% 0% 


从 表 2 看 到 加 速 器 BRAM 的 资源 利用 率 为 0， 是 因为 神经 网 络 的 模型 体 量 比较 小 ， 参 
数 经 过 优化 放 在 LUT 中 实现 。 本 文 使 用 Vivado 2018.3 对 设计 完成 综合 实现 。 
5.2 ”硬件 加 速 器 加 速效 果 测 试 

本 设计 主要 使 用 了 和 矩阵 计算 加 速 、 循 环流 水 线 以 及 循环 展开 技术 对 神经 网 络 进行 硬件 
加 速 ， 为 了 得 到 实际 加 速效 果 ， 需 要 对 使 用 上 述 优化 技术 加 速 前 后 的 资源 占用 以 及 时 钟 周 


期 进行 测试 对 比 ， 加 速 前 指 未 使 用 流水 线 化 、 循 环 展 开 等 优化 技术 的 资源 占用 ， 加 速 后 指 
使 用 了 优化 技术 的 资源 占用 。 如 表 1 所 示 ， 对 比 硬件 加 速 器 加 速 前 后 的 资源 占用 率 ， 我 们 
发 现 DSP48E 和 LUT 的 占用 率 明 显 上 升 。 符 合 硬件 加 速 器 用 资源 换取 运行 速度 的 设计 理念 ， 
从 加 速 前 后 时 钟 周期 可 以 看 出 ， 硬 件 加 速 器 对 算法 加 速 了 18.05 倍 左 右 ， 硬 件 加 速 器 仿真 前 
向 推理 时 间 为 2. 9us。 


表 1 硬件 加 速 器 优化 前 后 资源 对 比 


Ky 时 钟 周 期 FF LUT DSP48E BRAM_18K 
加 速 前 5236 3% 10% 6% 1% 
加 速 后 290 22% 89% 80% 0% 


5.3 量化 性 能 测试 
量化 参数 之 前 需要 测试 不 同位 数 定点 数量 化 算法 的 误差 ， 确 定量 化 位 数 之 后 将 浮 点 值 
转换 成 定点 数 并 且 对 其 进行 round 操作 。 分 别 进行 8 位 量化 、16 位 量化 以 及 32 位 量化 的 实 
验 ， 将 神经 网 络 的 权重 参数 通过 HLS 工具 里 的 AP. fixed 函数 分 别 量化 成 8 位 、16 位 以 及 3 
2 位 ， 将 这 些 不 同位 数 的 数据 送 入 神经 网 络 加 速 器 中 得 到 预测 结果 ， 对 预测 结果 和 实际 值 
进行 计算 误差 ， 得 到 不 同位 数量 化 的 误差 率 ， 从 而 得 到 不 同 量化 位 数 对 输出 结果 的 精度 影 
响 。 实 验 结果 如 图 9 所 示 ， 图 中 各 点 分 别 代表 对 应 BPM 位 置 的 量化 后 误差 率 的 数值 ，3 条 
折线 分 别 代表 3 种 量化 位 数 的 精度 。 由 图 11 可 见 16 位 定点 数量 化 的 误差 很 小 ， 与 32 位 定 
点 量化 精度 基本 一 致 ， 8 位 量化 的 精度 损失 明显 ， 精 度 损失 最 大 的 点 位 已 经 超过 了 40%, 
所 以 本 设计 采用 16 位 的 定点 量化 方法 。8 位 定点 量化 的 误差 较 大 原因 是 输入 值 的 范围 已 经 
超过 了 8 位 定点 数 的 表示 范围 ， 造 成 误差 侦 移 严重 。 
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图 11 量化 位 数 误差 对 比 


5. 4 硬件 性 能 评估 
为 了 测试 本 设计 的 性 能 指标 ， 需 要 对 照 组 进行 功 耗 测试 、 有 效 算 力 和 能 效 比 的 性 能 评 


估 。 选 取 目 前 主流 的 硬件 加 速 器 作为 对 照 组 ， 包 括 GPU 和 CPU 设备 。 使 用 包含 CPU 和 G 


PU 的 Linux 服务 器 进行 测试 ， 测 试 数 据 是 TraceWin 输出 的 经 过 归 一 化 及 统计 学 处 理 的 100 
00 组 数据 。 从 验证 集中 随机 抽取 10 组 ， 分 别 送 入 ZYBO-Z7、GPU、CPU 计算 平台 ， 对 于 


GPU 和 CPU 平台 使 用 profile 工具 进行 前 向 推理 


E 分 析 ， 可 以 得 到 满载 情况 下 其 前 向 推理 的 时 


延 ， 对 每 组 数据 在 不 同 计算 平台 上 的 处 理 时 间 、 网 络 推理 时 间 和 运算 量 及 不 同 平台 的 计算 


功 耗 进 行 测试 ， 测 试 结 果 如 表 3 所 示 ，FPGA 
BP 神经 网 络 在 该 硬件 加 速 器 推理 的 平均 时 间 约 为 SSus， 计 入 


于 发 板 功 耗 测试 如 图 12 所 示 。 从 表 3 可 看 出 ， 


速率 分 别 是 GPU 与 CPU 的 0. 


36 倍 、7.618 倍 ， 说 明 本 文 设计 的 边缘 智能 节点 在 FPGA 上 加 速效 果 明 显 ， 加 速效 果 介 于 G 


PU 和 CPU 之 间 。 该 节点 实际 功 耗 仅 为 1.572W， 远 低 于 GPU 与 CPU, i ATR FRAT 


移动 设备 。BPNN 网 络 的 运算 量 为 440 FLOPs= 0.00044MFLOPs， 故 该 加 速 器 每 秒 的 有 效 算 


fin 


FAA 0.00044/0.000055= 8MOPS， 能 效 比 为 8/1.572= 5.09 MOPS/W 。 该 加 速 器 的 能 效 比 是 G 


PU 的 23.13 倍 ，CPU 的 553.15 倍 ， 可 以 看 出 本 文 设计 的 边缘 计算 节点 有 着 优秀 的 性 能 收益 。 


实验 结果 表明 ， 系 统 整体 不 但 拥 


件 加 速 优势 ， 显 著 降 低 运 行 时 延 ， 增 加 算法 实时 性 。 


Ka 


图 12 开发 板 功 耗 测试 
表 3 加 速 平台 性 能 测试 对 比 


有 神经 网 络 的 数据 拟 合 能 力 ， 


| DD Dynamic: 1453W (92%) 
| [E 
— Clocks: 0.022 W 2 
| [=] 
| Signals: 0.015W (1%) 
[3 Logic: 0011W (1% 
92% — I BRAM: 0.003 W (<1%) 
DSP: 0.004W («19 
B PS7: 1.398W (94%) 
E Static: 0118W (8% 
ES | 100% | E PL Static: 0.118 W (100%) 


还 结合 了 边缘 加 速 节 点 的 硬 


ZYBO-Z7 GPU CPU 
单 组 数据 推理 时 间 /us 55 20 419 
每 秒 有 效 算 力 /MOPS 8 22 1.05 
实际 功 耗 /W 1.572 102 113 
能 效 比 /MOPS/W 5.09 0.22 0.0092 


5. 5 板 级 系统 功能 测试 和 精度 测试 


将 设计 好 的 硬件 加 速 IP 核 导 入 到 Vivado HF 


F 之 后 ， 根 据 硬件 架构 设计 绘制 Block 


Design 设计 图 ， 将 硬件 设计 集成 到 BSP (Board Support Package) 包 中 ， 导 入 SDK 软件 进 
端 控制 代码 编写 。 输 入 数据 后 ， 经 过 AXI 接口 传递 到 硬件 加 速 器 ，FPGA 的 PL 端 数 


行 PS 
据 处 到 


后 ， 通 过 PS 端 控制 并 输出 BPM 位 置 数据 ，ZYBO 开发 板 功能 串口 测试 结果 如 图 13 


所 示 。SDK Terminal 连接 COM4 串口 后 设置 比特 率 为 113200， 在 SDK Terminal 的 输入 窗口 
填写 BPNN 的 输入 数据 ， 点 击 Send 之 后 数据 送 入 开发 板 中 ， 之 后 串口 正常 输出 预测 的 BPM 
位 置 数据 。 实 验 表 明 ， 本 文 设计 的 硬件 架构 可 以 正确 接收 并 处 理 神经 网 络 输 入 数据 ， 验 证 
了 本 系统 架构 设计 的 正确 性 。 


i*; Problems 4) Tasks © Console & SDK Terminal :: E] SDK Log eRe 


= 


Connected to: Serial ( COM4, 115200, 0, 8) 


0.1266,0.2755,1.8975,4.7647,2.5888,3.5410,2.3178,3.9137,3.8727,3.0493, 


0.0995,0.4203,0.079,-0.1027,0.0212,-0.9021,-0.6212,0.0095,0.8106,-0.1578,0.354,-0.4084 Send Clear 


图 13 板 级 串口 测试 结果 

从 验证 集 抽取 的 10 组 数据 输入 边缘 加 速 节 点 中 进行 精度 测试 ， 将 得 到 的 预测 数据 与 原 
始 数 据 对 比 ， 得 到 各 组 预测 结果 和 实际 结果 的 误差 如 图 14 所 示 ，BPM 预测 误差 在 0.5% 左 
右 。 
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到 14 BPM 预测 误差 
6. 结论 及 展望 

本 文 从 提高 计算 速度 和 提高 能 效 比 的 角度 出 发 ， 设 计 了 一 种 以 FPGA 作为 边缘 智能 节 
点 的 加 速 系统 ， 通 过 软 硬 协 同 的 方式 ， 优 化 神经 网 络 前 向 传播 电路 及 降低 了 带宽 ， 以 满足 


束 流 轨道 参数 预测 的 实际 需求 。 神 经 网 络 加 速 嚣 在 计算 性 能 上 达到 SMOPS 的 有 效 算 力 ， 硬 
件 加 速 器 的 计算 功 耗 为 1.572W， 能 效 比 为 5.09MOPS/W， 是 GPU 的 23.13 倍 ， 是 CPU 的 5 
53.15。 从 数据 中 可 以 得 出 ， 作 为 神经 网 络 边 缘 加 速 平台 ，FPGA 加 速 神经 网 络 可 以 取得 很 
好 的 加 速效 果 ， 其 加 速效 果 在 实验 对 比 中 效果 介 于 GPU、 和 CPU 之 间 ， 并 且 明 显 强 于 CP 
U。 在 具有 良好 加 速效 果 的 情况 下 ，FPGA 加 速 器 具有 很 高 的 能 效 比 ， 在 大 规模 部 署 的 情况 
下 更 加 节省 能 源 。 

实验 结果 表明 ， 本 文 提 出 的 硬件 加 速 器 适合 应 用 于 边缘 计算 设备 ， 并 且 在 对 BPM 位 置 
预测 中 预测 值 和 真实 值 平 均 误 差 在 0.5%， 硬 件 加 速 器 仿真 平均 推理 时 延 2.9us，FPGA 边缘 
节点 推理 时 间 平 均 为 55us， 能 够 满足 未 来 实现 的 自 适 应 补偿 在 线束 流 校 正 系 统 的 时 延 要 求 ， 
这 里 FPGA 边缘 节点 推理 时 间 的 大 部 分 时 延 都 浪费 在 了 数据 传输 ， 未 来 目标 设计 更 低 时 延 
的 数据 传输 硬件 架构 ， 以 达到 更 好 的 加 速效 果 。 具 体 而 言 ， 主 要 贡献 为 研究 了 神经 网 络 加 
速 技术 在 粒子 加 速 器 束 流 轨道 数据 预测 中 的 应 用 ， 探 索 了 一 种 基于 边缘 智能 计算 节点 的 直 
线 加 速 器 束 流 轨 道 参数 预测 技术 研究 ， 并 通过 实验 验证 了 其 应 用 的 可 行 性 。 本 设计 的 核心 
是 边缘 加 速 节点 ， 有 具有 很 强 的 移植 性 ， 该 硬件 架构 以 及 边缘 节点 的 加 速算 法 不 仅 可 以 进行 
BPNN 的 前 向 推理 加 速 ， 对 于 其 他 有 高 实时 性 要 求 的 算法 或 者 神经 网 络 也 可 以 很 好 的 加 速 。 
但 本 文 的 研究 工作 是 基于 虚拟 加 速 器 的 数据 进行 的 ， 对 于 真实 的 加 速 器 的 束 流 轨 道 数据 预 
测 方案 ， 需 要 考虑 在 实际 加 速 器 中 更 多 的 影响 因素 ， 在 实际 加 速 器 中 进行 数据 清洗 ， 选 择 
典型 的 数据 进行 学 习 。 在 今后 的 工作 中 ， 我 们 将 对 神经 网 络 模型 及 加 速 方案 进行 改进 ， 未 
来 结合 自 适 应 补偿 的 自动 化 束 流 校 正 系统 应 用 于 真实 的 粒子 加 速 嚣 。 
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Abstracts: In light of the current international energy scarcity, nuclear power has emerged as a crucial source of 
clean energy. Proton accelerators have therefore become a pivotal technology in nuclear waste management. During 
beamline orbit correction processes, precise calculations of beamline orbit parameters are required. Given the 
demonstrated effectiveness of neural networks in a wide variety of industry domains, they offer promising potential 
for high-accuracy data fitting and prediction. Hence, this study proposes a novel direct linear accelerator beamline 
orbit parameter prediction technique based on edge intelligence computing nodes. This technique leverages BPNN 
to learn from historical data and generate a powerful model that can be seamlessly deployed to edge computing 
nodes, thereby accelerating the prediction of BPM location parameters. Furthermore, the proposed approach may be 
complemented by an adaptive compensation system in the future, which, in combination with edge computing nodes, 
could enable automatic beamline position correction, thereby achieving beamline orbit correction. Experimental 
results show that the FPGA hardware accelerator as an edge acceleration node simulation inference speed reaches 
55us, energy efficiency ratio compared to the GPU and CPU are about 23.13 times and 553.15 times, respectively, 
the prediction results of the error of an average of 0.5%, the latency and accuracy to meet the expected goals. 
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